داده‌های گروه‌بندی‌شده

داده‌های گروه‌بندی‌شده واژه‌ای آماری است که در آنالیز داده استفاده می‌شود. می‌توان با ایجاد جدولی که توزیع فراوانی متغیر را نشان می‌دهد، یک مجموعه داده خام فراهم کرد. مثلاً جدول فراوانی اغلب به عنوان داده‌های گروه‌بندی شده به کار می‌رود.^[۱]

نمونه

می‌توان با داده‌های خامی که در ادامه ذکر شده‌است، ایده داده‌های گروه‌بندی‌شده را به تصویر کشید:

جدول ۱: مدت زمانی که طول کشید (ثانیه) دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند
۲۰	۲۵	۲۴	۳۳	۱۳
۲۶	۸	۱۹	۳۱	۱۱
۱۶	۲۱	۱۷	۱۱	۳۴
۱۴	۱۵	۲۱	۱۸	۱۷

می‌توان داده‌های بالا را به چند طریق در یک توزیع فراوانی (یا داده‌های گروه‌بندی‌شده) سازمان‌دهی کرد. یک روش استفاده از فواصل به عنوان اساس است.

کمترین مقدار در جدول بالا ۸ و بیشترین مقدار ۳۴ است. بازه بین ۸ تا ۳۴ به چند زیربازه تقسیم می‌شود. تعداد آیتم‌هایی که در هر زیربازه، قرار می‌گیرند شمرده می‌شوند. به این عدد، فراوانی آن زیربازه گویند. نتایج، همانند زیر، در جدول فراوانی ذکر می‌شوند:

جدول ۲: توزیع فراوانی زمانی (به ثانیه) که طول کشید تا دسته‌ای از دانش‌آموزان به یک سؤال ساده ریاضی پاسخ دهند
زمان (ثانیه) طول کشیده	فراوانی
۵ ≤ t <۱۰	۱
۱۰ ≤ t <۱۵	۴
۱۵ ≤ t <۲۰	۶
۲۰ ≤ t <۲۵	۴
۲۵ ≤ t <۳۰	۲
۳۰ ≤ t <۳۵	۳

یکی‌دیگر از روش‌های دسته‌بندی‌داده‌ها استفاده از ویژگی‌های کیفی به جای بازه‌های عددی است. برای مثال، فرض کنید در مثال بالا سه نوع دانش‌آموز وجود داشته باشند: ۱) پایین‌تر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۵ تا ۱۴ ثانیه باشد، ۲) معمولی، به شرط آن‌که زمان بین ۱۵ تا ۲۴ ثانیه باشد، و ۳) بیشتر از معمول، به شرط آن‌که زمان پاسخ‌گویی ۲۵ ثانیه و به بالا باشد، در این شرایط داده‌های گروه‌بندی شده به شکل زیر خواهد بود:

جدول ۳: توزیع فراوانی سه نوع دانش‌آموز
	فراوانی
پایین‌تر از معمول	۵
معمول	۱۰
بیشتر از معمول	۵

میانگین داده‌های دسته‌بندی‌شده

می‌توان با رابطه پایین، میانگین جامعه داده‌ها، یعنی ${\bar {x}}$ ، را با توجه به داده‌های گروه‌بندی شده حساب کرد:

{\bar {x}}={\frac {\sum {f\,x}}{\sum {f}}}.

در این رابطه x نقطه میانی زیربازه‌ها و f فراوانی هر زیربازه است. توجه داشته باشید که این مقدار با مقدار میانگین نمونه فرق دارد. میانگین داده‌های بالا را نمی‌توان به این روش حساب کرد:

زیربازه‌ها	فراوانی (f)	میانه (x)	حاصل‌ضرب f و x
بزرگ‌تر یا مساوی ۵ و کوچک‌تر از 10	1	7.5	۷٫۵
۱۰ ≤ t <۱۵	۴	۱۲٫۵	۵۰
۱۵ ≤ t <۲۰	۶	۱۷٫۵	۱۰۵
۲۰ ≤ t <۲۵	۴	۲۲٫۵	۹۰
۲۵ ≤ t <۳۰	۲	۲۷٫۵	۵۵
۳۰ ≤ t <۳۵	۳	۳۲٫۵	۹۷٫۵
مجموع	۲۰		۴۰۵

در نتیجه، میانگین داده‌های گروه‌بندی‌شده عبارتند از:

{\bar {x}}={\frac {\sum {f\,x}}{\sum {f}}}={\frac {405}{20}}=20.25

منابع

ترجمه از ویکی‌پدیا انگلیسی

↑ Newbold et al. , 2009, pages 14 to 17

[1] Newbold et al. , 2009, pages 14 to 17

[۱]